Représentation condensée en présence de valeurs manquantes

نویسندگان

  • François Rioult
  • Bruno Crémilleux
چکیده

Missing values are an old problem that is very common in real data bases. We describe the damages caused by missing values on condensed representations of patterns extracted from large data bases. This is important because condensed representations are very useful to increase the efficiency of the extraction and enable new uses of patterns (e.g., rules with minimal body, clustering, classification). We show that, unfortunately, such condensed representations are unreliable in presence of missing values. We present a method of treatment of missing values for condensed representations based on δ-free or closed patterns, which are the most common condensed representations. This method provides an adequate condensed representation of these patterns. We show the soundness of our approach, both on a formal point of view and experimentally. Experiments are performed with our prototype MVMINER (for Missing Values miner), which computes the collection of appropriate δ-free patterns. MOTS-CLÉS : Fouille de données, motifs fréquents, représentation condensée, valeurs manquantes, données incomplètes.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Traitement Des Donnees Manquantes Au Moyen De L'Algorithme De Kohonen

Le traitement des données avec observations manquantes est un problème concret et toujours embarrassant lorsqu’il s’agit de données réelles. En effet dans les applications, on est très souvent en présence d’observations pour lesquelles on ne dispose pas de l’ensemble des valeurs des variables descriptives, et ceci se produit pour de nombreuses raisons : erreurs de saisie, rubriques non renseign...

متن کامل

gapIT : Un outil visuel pour l'imputation de valeurs manquantes en hydrologie

Résumé. Les données manquantes sont problématiques en hydrologie, car elles gênent le calcul de statistiques interannuelles et sur de longues périodes, ainsi que l’analyse et l’interprétation de la variabilité des données. Dans cet article, nous présentons gapIT, une plateforme d’analyse de données permettant d’inspecter visuellement les données manquantes et ensuite de choisir la méthode de co...

متن کامل

ESIEA Datalab Logiciel de Nettoyage et Préparation de Données

Il est communément admis que le temps de préparation des données peut occuper jusqu’à 80% du temps lors d’un projet industriel de fouille de données (Pyle, 1999). L’hétérogénéité des sources, la présence de valeurs manquantes, les erreurs de saisie ou de calcul, les pannes de capteurs, une mauvaise fusion de données sont autant de causes qui peuvent introduire erreurs et incohérences dans une t...

متن کامل

Apports de la modélisation algébrique pour la représentation de connaissances par objets : illustration en AROM

AROM est un système de représentation de connaissances reposant, à l’image des diagrammes de classes d’UML, sur deux types d’entités de modélisation complémentaires : les classes et les associations. Il intègre un langage de modélisation algébrique (ou LMA) qui sert de support à différents mécanismes d’inférence. Ce langage permet l’écriture d’équations, de contraintes, et de requêtes, impliqua...

متن کامل

Utilisation de règles d'association pour la prédiction de valeurs manquantes

Résumé. Le traitement des valeurs manquantes est une problématique importante dans le domaine des entrepôts de données. Plusieurs solutions ont été proposées pour la prédiction de valeurs manquantes, présentant les caractéristiques suivantes : (i) la prédiction traite soit des valeurs continues soit des valeurs discrètes, et (ii) la prédiction est approximative (soit elle est associée à une pro...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2004